1
computer::
Adding diacritics
برچسب گذاری نقش کلمه (Part-of-speech-Tagging ) (تهیه لیستی از اقسام و نقش کلمات در زبان فارسی است که بتوان از آن لیست انتخاب نمود)، ابهام زدایی از نقش کلمه (Word sense Disambiguation، تشخیص مفهوم مورد نظر از هر کلمه که در چند مفهوم استفاده می شود، ابهام زدایی نحوی (Syntatic Disambiguation ) که ناشی از ارتباط میان کلمات و عبارات درون جمله است، هنجارسازی (Normalization)( وجود نویسه های هم شکل متعدد که در زبان شناسی رایانه متفاوت هستند)، وجود فاصله های اضافی در متن که عمل استخراج کلمات و عبارات را مشکل می سازد ، تشخیص اعمال گفتاری(Speech act )، گوناگونی معادل های علمی، تنوع ضبط اسامی، تعیین مرز کلمات و سرهم نویسی، جدانویسی و بی فاصله نویسی کلمات، انواع جمع ها، صورتهای مختلف نوشتاری و استفاده از زبان محاوره در نوشتار به ویژه در وبلاگ ها ، اختلافاتی مانند اتصال پسوندها، فاصله گذاری ها و دگرگونی کلمات در حین پیوند ، اعراب گذاری نویسه های خاص ، کدگذاری نویسههای فارسی، ریخت شناسی پیچیده و مبهم خط فارسی با رویکرد مشکلات املایی از قبیل قواعد فعلی، قواعد وندی Affix ، و قواعد فاصله گذاری، وجود حروف همشکل بسیار، وجود حروف هم آوای بسیار، و توزیع متفاوت انواع غلطهای تایپی می باشد.
راهکارهای مشکلاتی که تحت تاثیر ساختار زبان هستند عبارتند از یک مرحله پیش پردازش شامل یکسان سازی کدگذاری نویسهها ، یکسان سازی رسم الخط، تشخیص مرز کلمات، حذف یا یکسان سازی اعراب گذاری و یکسانسازی املاهای مختلف کلمات انجام پذیرد.
پس از آن، «تنوع نشانه های جمع» ، «تفاوت در آوا / اعراب گذاری»، «تنوع دگر نوشته ها»، «الف کوتاه»، «فاصله بین حروف واژه»، و «نگارش از راست به چپ» فراوانی بالایی دارند .
واژگان شبکه مترجمین ایران